[AI]硬件与系统环境准备

本节目标

了解部署 DeepSeek 所需的硬件要求
理解不同配置对模型性能的影响
掌握系统环境的基本要求
能够评估自身环境是否满足部署条件
学习当前流行的推理框架特点与选择
了解国产 GPU 硬件环境的 DeepSeek 模型支持情况

硬件要求

GPU 配置

DeepSeek 模型运行需要一定的 GPU 算力支持，根据模型的不同版本有不同的要求：

模型版本	最低显存要求	推荐显存配置	备注
DeepSeek-Coder-7B	8GB(INT4 量化) / 16GB	24GB	基础代码开发适用
DeepSeek-Coder-33B	24GB(INT4 量化) / 48GB	80GB	高级代码开发适用
DeepSeek-LLM-67B	40GB(INT4 量化) / 80GB	128GB	全面任务适用
DeepSeek-V2	120GB(分布式)	8×80GB	MoE 结构，236B 参数(21B 激活)
DeepSeek-V3	200GB(分布式)	8×80GB	MoE 结构，671B 参数(37B 激活)

类比理解：GPU 对于 AI 模型就像汽车的发动机，显存就像是汽车的油箱。模型越大，需要的"油箱容量"就越大，否则无法正常"行驶"。

DeepSeek-V3 与 R1 主要版本及硬件要求

主流模型对比：

特性	DeepSeek-V3	DeepSeek-R1
定位	对标 OpenAI 的 GPT4o (L1 级别)	对标 OpenAI-o1 (L2 级别)
架构特点	混合专家(MoE)架构	强化学习优化的推理模型
总参数量	671B	671B
激活参数	37B	37B
主要优势	性价比高、工程创新	推理能力强、产业影响大
适用场景	通用 NLP 任务、内容生成	高级推理任务、问题求解
默认应用位置	DeepSeek 官网/APP 默认模型	官网/APP 的"深度思考"模式

在 DeepSeek 官方应用中，默认聊天使用 V3 模型，而点击"深度思考"选项后会调用 R1 模型，两种模型各有所长。

R1 蒸馏模型系列及硬件需求

为解决大模型部署的资源瓶颈，DeepSeek 提供了多种蒸馏版本模型。相比满血版 R1(671B)的极高硬件要求，蒸馏模型显著降低了部署门槛：

蒸馏模型版本	参数量	最低显存要求	推荐显存配置	特点
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	4GB(INT4 量化)/6GB	8GB	超轻量级、响应速度极快
DeepSeek-R1-Distill-Qwen-7B	7B	8GB(INT4 量化)/12GB	16GB	轻量级、资源需求适中
DeepSeek-R1-Distill-Llama-8B	8B	10GB(INT4 量化)/16GB	24GB	基于 Llama 架构优化
DeepSeek-R1-Distill-Qwen-14B	14B	16GB(INT4 量化)/24GB	32GB	平衡性能与资源需求
DeepSeek-R1-Distill-Qwen-32B	32B	24GB(INT4 量化)/40GB	48GB	接近大模型效果
DeepSeek-R1-Distill-Llama-70B	70B	48GB(INT4 量化)/80GB	96GB	大规模蒸馏模型，性能接近满血版

蒸馏模型性能对比：

模型版本	逻辑推理	数学解题	代码生成	文本理解	资源需求
R1-671B (满血版)	100%	100%	100%	100%	★★★★★
R1-Distill-Llama-70B	92%	90%	93%	95%	★★★★
R1-Distill-Qwen-32B	85%	82%	87%	90%	★★★
R1-Distill-Qwen-14B	75%	71%	80%	83%	★★
R1-Distill-Qwen-7B	65%	60%	70%	75%	★

蒸馏模型在很多任务上能保留原始模型 70%-95%的性能，同时显著降低部署难度和成本。实际应用中，应根据任务复杂度和可用资源选择合适的模型版本。

模型优化技术与部署建议

主要优化技术：

MoE 异构计算：将专家参数放在 CPU 内存中，按需调用到 GPU，可使大模型在普通硬件上运行
多头潜在注意力(MLA)：优化 KV 缓存管理，显著减少显存占用(约 30%)
量化推理：支持 FP16/BF16 混合精度及 INT8/INT4 量化，可降低 50%-87.5%显存需求
参数剪枝：针对专家网络的选择性剪枝，减少不必要计算

部署建议：

高端服务器环境：多卡环境选择 V3/R1 满血版，单卡高端环境选 R1-Distill-Llama-70B
中端开发环境：24GB-40GB 显存选 R1-Distill-Qwen-14B/32B，16GB 显存选 R1-Distill-Qwen-7B
资源受限环境：8GB 显存选量化后的 R1-Distill-Qwen-7B，6GB 显存选 R1-Distill-Qwen-1.5B
特定任务优化：代码开发选 DeepSeek-Coder 系列，推理任务选 R1 系列蒸馏版

CPU 与内存

CPU：建议至少 8 核心，推荐 16 核心以上，支持 AVX2 指令集
内存：最低 32GB，推荐 64GB 以上（大模型推荐 128GB）
存储：至少 200GB SSD 空间（模型文件较大，V3 版本需要更多空间）
网络带宽：推荐至少 100Mbps，下载大模型时至少 1Gbps

系统环境要求

操作系统

Linux：Ubuntu 20.04/22.04 或更高版本（推荐）
Windows：Windows 10/11 + WSL2（注意 WSL2 内存限制问题）
macOS：支持 M1/M2/M3 芯片的设备可以运行部分轻量级模型

软件环境

Docker：版本 20.10.x 或更高（推荐部署方式）
Python：3.8-3.10（建议使用 conda 创建虚拟环境）
CUDA：11.7/11.8 或更高版本（V3 模型推荐 CUDA 12.x）
cuDNN：8.x 或兼容版本

连接性要求

稳定的互联网连接（用于下载模型和依赖）
足够的带宽（模型下载可能需要几十 GB 的数据传输）
对于 API 调用模式，需要确保与 API 服务器的稳定连接

如何评估自己的环境

可以使用以下命令查看自己环境的基本信息：

bash

# 查看GPU信息
nvidia-smi

# 查看CPU信息
lscpu

# 查看内存信息
free -h

# 查看存储空间
df -h

# 查看CUDA版本
nvcc --version

# 检查Python环境
python --version
pip list | grep torch

最低可用配置方案

如果您的硬件资源有限，可以考虑：

1. 使用量化版本的模型

量化是一种通过降低模型参数精度来减少显存占用的技术：

量化方法	显存节省	性能影响	适用场景
FP16(半精度)	约 50%	几乎无损	大多数场景
INT8 量化	约 75%	轻微影响	推理任务
INT4 量化	约 87.5%	中度影响	资源受限环境

量化工具推荐：

GPTQ：高效的量化方法
bitsandbytes：支持 8 位和 4 位量化
LLM.int8()：混合精度量化

2. 使用 CPU 模式运行

仅适用于小模型（7B 以下）
推理速度会大幅降低（约 GPU 速度的 1/10 到 1/100）
可结合量化技术使用

3. 考虑云服务器租用（下一节将详细介绍）

4. 使用分布式部署

通过模型并行分散显存压力
需要多台机器或多卡环境
适合 DeepSeek-V2/V3 等大模型

流行推理框架对比

随着大模型应用的普及，高效的推理框架变得至关重要。以下是当前几种流行的推理框架，它们在性能、资源占用和易用性方面各有特点：

1. vLLM：高吞吐量的 PagedAttention 框架

vLLM 是由伯克利大学 LMSYS 组织开发的推理框架，核心亮点是其创新的 PagedAttention 技术。

核心优势：

PagedAttention 技术：受操作系统虚拟内存和分页机制启发，将 KV 缓存划分为固定大小的块，有效管理显存，减少浪费，显存利用率提高 95%以上
连续批处理（Continuous Batching）：支持动态接收请求并批量处理，无需等待所有请求同时到达
分布式推理：支持张量并行，可跨多 GPU 部署大模型
高吞吐量：与 Hugging Face 相比可提升 14-24 倍吞吐量，与 TGI 相比可提升 2.2-2.5 倍
OpenAI 兼容 API：提供与 OpenAI API 兼容的接口，便于集成

局限性：

单请求性能优化有限，主要优势在于高并发场景
新模型架构适配需要额外工作
资源需求仍然较高，小型设备支持有限

适用场景：

高 QPS 的生产服务环境
需要高内存效率的大模型部署
需要动态处理用户请求的场景

2. KTransformers：国产轻量级推理框架

KTransformers 是清华大学 KVCache.AI 团队联合趋境科技开发的推理框架，专注于优化 DeepSeek 等 MoE 架构模型的推理效率。

核心优势：

MoE 模型优化：专门为 MoE 架构模型设计，可在 24GB 消费级显卡上流畅运行 DeepSeek-V3 671B 模型
异构计算：采用 GPU/CPU 混合计算策略，将非共享部分的稀疏 MoE 矩阵放在 CPU 上，共享部分放在 GPU 处理
MLA 算子优化：针对 DeepSeek 的多头潜在注意力机制进行深度优化，减少 KV 缓存大小，提高 GPU 利用率
兼容 Hugging Face 接口：提供与 Hugging Face Transformers 兼容的 API
支持国产 GPU：针对国产 GPU 进行适配优化

局限性：

目前主要针对 MoE 架构模型优化，对其他类型模型的支持有限
生态系统相对较新，社区支持相对较少
CPU 参与计算可能增加延迟

适用场景：

DeepSeek/MoE 模型在有限算力下的部署
需要在消费级显卡上运行大型 MoE 模型
国产 GPU 环境中的大模型部署

3. TensorRT-LLM：NVIDIA 优化的高性能框架

TensorRT-LLM 是 NVIDIA 开发的专为其 GPU 优化的推理框架，提供极致的性能优化。

核心优势：

深度优化：针对 NVIDIA GPU 架构深度优化，性能表现优异
FP8/INT8 量化：支持高效率的低精度推理
多 GPU 部署：支持模型并行和流水线并行
动态批处理：支持高效的批处理机制
内核融合：通过操作合并优化计算效率

局限性：

严重依赖 NVIDIA 生态，不支持其他厂商 GPU
安装配置复杂度较高
部分优化依赖特定 NVIDIA 硬件特性

适用场景：

NVIDIA GPU 服务器上的大规模部署
追求极致性能的生产环境
需要精确控制推理性能的场景

4. LMDeploy：MMDeploy 团队的全功能部署工具

LMDeploy 是由 MMDeploy 和 MMRazor 团队联合开发的大语言模型部署工具，提供从量化到推理的全流程方案。

核心优势：

TurboMind 推理引擎：基于 FasterTransformer 的高效推理引擎
交互推理缓存：通过缓存多轮对话的 attention KV，避免重复处理
量化支持：提供 AWQ INT4 量化和 KV cache INT8 量化
Persistent Batch：进一步优化模型执行效率
支持主流开源模型：适配各种主流大语言模型

局限性：

专注于特定类型模型，适配范围有限
分布式能力相对较弱
社区规模相对较小

适用场景：

需要一站式量化和部署解决方案
多轮对话场景优化
中小规模服务部署

5. 框架对比与选择建议

框架	吞吐量	延迟	显存优化	易用性	社区支持	国产 GPU 支持
vLLM	★★★★★	★★★	★★★★★	★★★★	★★★★★	★★
KTransformers	★★★★	★★★★	★★★★★	★★★	★★	★★★★★
TensorRT-LLM	★★★★★	★★★★★	★★★	★★	★★★★	★
LMDeploy	★★★★	★★★★	★★★★	★★★★	★★★	★★★

选择建议：

高并发生产环境：首选 vLLM
DeepSeek 模型部署：考虑 KTransformers
NVIDIA 高端服务器：选择 TensorRT-LLM
中小规模服务：可以考虑 LMDeploy
国产硬件环境：优先考虑 KTransformers 或适配国产 GPU 的 LMDeploy

国产 GPU 环境支持

随着国产 AI 生态的发展，越来越多的国产 GPU 开始支持 DeepSeek 模型推理，为用户提供了更多选择。

1. 华为昇腾 DCU 支持

华为昇腾作为国产 AI 芯片的代表，已完成对 DeepSeek 全系列模型的适配。

核心优势：

性能表现：经优化后，推理性能与高端 NVIDIA GPU 如 A100/H800 相当
功耗效率：较同等性能的 NVIDIA 产品降低约 40%功耗
MindSpore 框架：通过 MindSpore 框架深度优化，提供高效推理
完整适配：从 DeepSeek-V3/R1 671B 到蒸馏小模型全系支持
API 服务：华为云提供基于昇腾的 DeepSeek 推理 API 服务

部署案例：

bash

# 使用华为MindSpore框架部署DeepSeek-R1模型
# 安装MindSpore
pip install mindspore-ascend

# 加载并推理模型
import mindspore as ms
from mindspore import nn
from mindspore.common import dtype as mstype

# 设置运行在昇腾硬件上
ms.set_context(mode=ms.GRAPH_MODE, device_target="Ascend")

# 加载转换后的模型（需事先转换）
model = ms.load_checkpoint("deepseek_r1_distill_ascend.ckpt")

2. 海光 DCU 支持

海光信息的 DCU（深度计算单元）也已完成 DeepSeek 系列模型适配。

核心特点：

GPGPU 架构：基于高性能 GPGPU 架构，支持 FP32/FP16 高精度计算
规模部署：已在金融、医疗、政务等领域实现规模化应用
全系适配：完成 DeepSeek-V3 和 R1 模型与海光 DCU 的适配
场景优化：针对垂直领域提供专门优化

3. 其他国产 GPU 支持情况

国内多家 GPU 厂商已宣布对 DeepSeek 模型的适配支持：

厂商	代表产品	支持模型	特点
壁仞科技	壁砺 106 系列	DeepSeek 全系列模型	支持从 1.5B 到 70B 的参数版本，提供云服务
沐曦科技	曦思 N260	DeepSeek-R1/Qwen-14B	性能达英伟达 L20 GPU 的 110%-130%
摩尔线程	MTT S4000	DeepSeek 蒸馏模型	Tokens/Watt 指标达 A100 的 83%
天数智芯	天数 GPU	DeepSeek-R1 系列	支持 1.5B、7B 和 14B 参数模型
燧原科技	燧原加速卡	DeepSeek 全量模型	已在多个智算中心部署数万卡
云天励飞	DeepEdge10	DeepSeek 视觉模型及语言模型	专注端边云一体化部署
昆仑芯	P800	DeepSeek 全系列模型	支持 MLA、多专家并行特性

4. 国产环境部署建议

在国产 GPU 环境中部署 DeepSeek 模型时，有以下几点建议：

选择适配程度高的模型版本：优先选择厂商已完成深度适配的模型版本
利用厂商提供的 SDK 和工具：使用专为国产芯片优化的 SDK 和接口
注意 API 差异：国产框架 API 可能与 PyTorch/TensorFlow 有所不同
采用厂商推荐配置：按照厂商建议设置量化参数和推理选项
考虑使用云服务：很多国产 GPU 厂商提供基于其硬件的云服务，可以降低部署门槛

示例：使用壁仞 SDK 部署 DeepSeek 模型

python

# 伪代码示例：使用壁仞SDK部署DeepSeek-R1蒸馏模型
import biren_sdk as br

# 初始化环境
br.init()

# 加载已适配的模型
model = br.load_model("deepseek_r1_distill_qwen_7b")

# 创建推理会话
session = br.create_session(model, device_id=0)

# 执行推理
inputs = br.Tensor([tokenizer.encode("你好，请介绍一下自己")])
outputs = session.run(inputs)

# 解码输出
response = tokenizer.decode(outputs[0])
print(response)

[AI]硬件与系统环境准备 ​

本节目标 ​

硬件要求 ​

GPU 配置 ​

DeepSeek-V3 与 R1 主要版本及硬件要求 ​

R1 蒸馏模型系列及硬件需求 ​

模型优化技术与部署建议 ​

CPU 与内存 ​

系统环境要求 ​

操作系统 ​

软件环境 ​

连接性要求 ​

如何评估自己的环境 ​

最低可用配置方案 ​

1. 使用量化版本的模型 ​

2. 使用 CPU 模式运行 ​

3. 考虑云服务器租用（下一节将详细介绍） ​

4. 使用分布式部署 ​

流行推理框架对比 ​

1. vLLM：高吞吐量的 PagedAttention 框架 ​

2. KTransformers：国产轻量级推理框架 ​

3. TensorRT-LLM：NVIDIA 优化的高性能框架 ​

4. LMDeploy：MMDeploy 团队的全功能部署工具 ​

5. 框架对比与选择建议 ​

国产 GPU 环境支持 ​

1. 华为昇腾 DCU 支持 ​

2. 海光 DCU 支持 ​

3. 其他国产 GPU 支持情况 ​

4. 国产环境部署建议 ​

[AI]硬件与系统环境准备

本节目标

硬件要求

GPU 配置

DeepSeek-V3 与 R1 主要版本及硬件要求

R1 蒸馏模型系列及硬件需求

模型优化技术与部署建议

CPU 与内存

系统环境要求

操作系统

软件环境

连接性要求

如何评估自己的环境

最低可用配置方案

1. 使用量化版本的模型

2. 使用 CPU 模式运行

3. 考虑云服务器租用（下一节将详细介绍）

4. 使用分布式部署

流行推理框架对比

1. vLLM：高吞吐量的 PagedAttention 框架

2. KTransformers：国产轻量级推理框架

3. TensorRT-LLM：NVIDIA 优化的高性能框架

4. LMDeploy：MMDeploy 团队的全功能部署工具

5. 框架对比与选择建议

国产 GPU 环境支持

1. 华为昇腾 DCU 支持

2. 海光 DCU 支持

3. 其他国产 GPU 支持情况

4. 国产环境部署建议